PGroongaで"too long sentence"と怒られた
PostgreSQLの高速な全文検索拡張機能であるPGroongaでMeCabのトークナイザーを使うと、"too long sentence"と怒られることがある
これはMeCabが何らかの理由で文に区切れずに1文が長くなりすぎるのが原因
#エラー の例
code:log
tokenizermecab mecab_parse_lattice() failed len=3201813 err=too long sentence.
この場合、オプションで"chunked_tokenize", trueすれば強制的に区切ってチャンク化してくれるのでエラーが発生しない
SQLの例
code:sql
CREATE INDEX index_name
ON table
USING pgroonga (col)
WITH (tokenizer='TokenMecab("chunked_tokenize", true)');
#技術メモ